学术 | 数据爬虫有何问题 | 自由微信

学术 | 数据爬虫有何问题

广信君达律师事务所 2020-09-02

The following article is from 广州律协 Author 苏耀云曾恺

最近，以数据“爬虫”来开展业务的大数据风控服务商受到监管层的严厉打击。9月初，魔蝎科技、新颜科技两家大数据风控服务商相关人员被公安机关调查。9月12日，媒体报道天翼征信有限公司的多位高管及员工被拘留。10月21日，51信用卡爬虫部门被公安机关“一锅端”。一时间，大数据风控服务商纷纷停止数据爬虫业务，观望，不少从事爬虫业务的人员和计算机行业的朋友也咨询我们爬虫相关法律风险。为此，本文结合我国目前法律法规对不同场景下不同情形爬取数据行为进行了分析，希望对从业者有所帮助。

网络爬虫（Web Crawler），简单理解，就是通过编写一个程序抓取别人网站或App内的数据到自己的网站（App）或数据库供自己或自己用户使用。作为一种“技术”手段，爬虫技术本身没有违法性，问题在于将技术用于什么方面，什么场景。另外，爬虫主要目的是为了获取数据，而获取数据的类型关系到爬取行为合法与否。

爬虫可能涉及的刑事责任

根据实际中不同情形，我们归纳了数据爬取可能直接涉及的刑事责任，见下图：

根据上图，我国《刑法》有个罪名非法侵入计算机信息系统罪，若编写爬虫程序侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的，无论情节严重与否，直接构成该罪。

大家最疑惑的是，若爬取不涉及国家事务、国防建设、尖端科学技术领域的计算机信息系统的数据，是否涉刑责？我国《刑法》还规定了非法获取计算机信息系统数据罪，“违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据”，从文字上看，是否意味着任何爬取行为都要被这条罪名所“禁止”？

显然也不能这么说，这条规制的是非法获取数据行为，合法获取就没问题，关键在于什么为合法？简单来说，爬取公开信息，如政府机关公布的公开信息，企业的公开信息，天气数据、媒体公开报道等信息，就没问题。若爬取非公开信息，要获得被爬取网站或企业的授权或同意，若爬取的涉及公民个人信息，则还要获得公民本人授权或同意，否则，同时构成侵犯公民个人信息罪。

还有很多技术人员认为仅开发或设计爬虫程序，不参与具体爬取数据的行为，就没事了？实际上不然，若提供爬虫程序，具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据的功能的程序，开发目的是专门为了提供侵入、非法控制计算机信息系统程序、工具的，则可能构成提供侵入、非法控制计算机信息系统程序、工具罪。实践中，这种行为都是为了从中获利。另外，若爬取数据过量或爬取行为造成被爬取网站不能正常运行的时候，情节严重的，可能构成破坏计算机信息系统罪。

若爬取数据为他人具有独创性成果的数据，可能构成侵犯著作权罪。

为了让大家更好理解上述不同场景下数据爬虫可能涉及刑事责任风险，我们搜集了一些典型案例，供参考。

向下滑动图片

综上，以上列举案例均为不当的数据爬取行为导致严重后果，侵犯了我国《刑法》保护的社会管理秩序、公民人身权利和知识产权，为法律所禁止，而现实生活中行为人大多以不知行为触犯法律来为自己辩解，这是显然站不住脚的，故我们提醒技术人员要合规爬虫。

爬虫可能涉及的民事责任

数据爬取行为，除了可能承担前述刑事责任外，相关主体可能还要承担相应民事责任，比较典型的是侵犯著作权民事责任和反不正当竞争法项下的民事责任。

著作权侵权责任

数据爬虫侵犯他人著作权，首先要判断爬取的数据是否直接构成他人具有《著作权法》保护的独创性作品，退而求其次，被爬取的数据是否构成汇编作品，这两个请求权基础是被爬取数据的企业主张的依据。例如：首先，在是否直接侵犯著作权方面：

美亚长城影视文化（北京）有限公司与精伦电子股份有限公司侵犯影视作品信息网络传播权纠纷（2014）鄂民三终字第00107号，裁判日期：2014.04.16

精伦电子股份有限公司主要通过相关主体和技术从互联网上抓取影视链接地址，并由其提供的播放器进行播放。法院认为，精伦电子向其产品用户提供搜索、链接服务，让其用户获取涉案影视作品的行为是否构成侵权是本案双方当事人争议的主要焦点。精伦电子开发销售的涉案精伦H3播放器主要是以让用户免费获取海量影视内容为卖点，其产品盈利点也是基于互联网第三方网站提供的影视内容，从尊重著作权人权利和基本的商业伦理分析，精伦电子链接他人版权作品提供给自己的产品用户，应该取得著作权人及相关权利人的许可并支付相应的对价。本案中，精伦电子并未取得著作权人及相关权利人的许可，也未支付相应的对价。

法院认为，精伦电子向其产品用户提供搜索、链接服务，让其用户获取涉案影视作品的行为主观上具有过错，构成侵权。

在主张构成汇编作品权方面，在我国司法实践中，数据汇编能否享有著作权要看是否具备著作权法上的独创性，即“将作品或者作品的片段通过选择或者编排，汇集成新作品的权利”，在大众点评诉爱帮网一案中，【上海汉涛信息咨询有限公司与爱帮聚信（北京）科技有限公司著作权侵权纠纷案，（2010）海民初字第4253号】一审北京海淀法院认为，大众点评网中针对餐馆的介绍和点评内容整体构成汇编作品，原告作为网站的经营者，对上述内容享有著作权。但二审被法院驳回，二审法院认为，“大众点评网对于网友点评信息系按照时间顺序排列，排列方式是常见的排列方式，并不具有独创性。同时，本案现有证据亦无法看出被上诉人对于用户点评的内容进行了选择。”，故二审法院最终未支持数据抓取方式侵犯汇编作品著作权的主张，后来，大众点评另行提起了不正当竞争诉讼，获得法院支持。

构成不正当竞争

数据是互联网行业的核心竞争力，谁能获取更多、更优质的数据意味着谁能脱颖而出，抢占竞争优势，同时，数据合理、使用、流转也应获得保护，但由于目前我国法律没有明确数据权益法律性质，导致实践中爬取数据及使用问题常常引发互联网行业之间的不正当竞争纠纷，例如：

深圳市谷米科技有限公司与武汉元光科技有限公司等不正当竞争纠纷案。(2017)粤03民初822号。裁判日期：2018.05.23

深圳中院认为：本案中，被告元光公司利用网络爬虫技术大量获取并且无偿使用原告谷米公司“酷米客”软件的实时公交信息数据的行为，实为一种“不劳而获”、“食人而肥”的行为，具有非法占用他人无形财产权益，破坏他人市场竞争优势，并为自己谋取竞争优势的主观故意，违反了诚实信用原则，扰乱了竞争秩序，构成不正当竞争行为。

疑问：公交停靠地点、时间表、路线这些数据具有“公共性”，本身也是客观存在的，但为何深圳中院认为谷米公司对这些数据享有一定独占性权益？

深圳中院认为：公交车作为公共交通工具，其实时运行路线、运行时间等信息仅系客观事实，但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位，作为公交信息查询软件的后台数据后，其凭借预报的准确度和精确性就可以使“酷米客”APP软件相较于其他提供实时公交信息查询服务同类软件取得竞争上的优势。而且，随着查询数据越准确及时，使用该款查询软件的用户也就越多，软件的市场占有份额也就越大，这也正是元光公司爬取谷米公司数据的动机所在。

鉴于“酷米客”APP后台服务器存储的公交实时类信息数据具有实用性并能够为权利人带来现实或潜在、当下或将来的经济利益，其已经具备无形财产的属性。谷米公司系“酷米客”软件著作权人，相应的，也就对该软件所包含的信息数据的占有、使用、收益及处分享有合法权益。未经谷米公司许可，任何人不得非法获取该软件的后台数据并用于经营行为。

最后，深圳中院依据《反不正当竞争法》第二条认定元光公司爬取数据行为构成不正当竞争行为。

案例评析：法院裁判思路很清晰，虽已有刑事判决确定元光公司爬取谷米公司数据的行为构成刑事犯罪，但《反不正当竞争法》视野下，该案有个特别之处在于公交数据本身具有客观性，本案不正当竞争纠纷围绕焦点在于数据的“流转”和“使用”，及谁对数据享有在先权益，所以，在该案中，深圳中院首先要从民事权利方面评价谷米公司对其付出劳动所得的公交数据享有权益，“车来了”爬取这一数据未经授权，存在不正当性，且元光公司使用行为是为了谋求“车来了”的竞争优势，违反了诚实信用原则和商业道德，扰乱了竞争秩序，故认定元光公司数据爬取行为构成不正当竞争。

由此可知，除了竞争关系和行为违反商业道德，损害他人权益，扰乱市场竞争秩序的认定外，此类涉及数据爬取及使用的不正当竞争纠纷审理首先要认定的是：数据权益归属+获取数据行为合法性+数据使用行为合法性。

例如：2016年北京知识产权法院审理的新浪微博与脉脉软件不正当竞争纠纷案（（2016）京73民终588号），也涉及未经授权抓取和使用数据行为，法院根据该案证据及双方陈述认定淘友技术公司、淘友科技公司（运营脉脉软件）在双方合作期间实施了非法抓取、使用涉案新浪微博用户职业信息、教育信息的行为；在双方合作结束之后，淘友技术公司、淘友科技公司非法使用涉案新浪微博的用户信息。在数据权益方面，法院认为，用户信息是互联网经营者重要的经营资源，如何展现这些用户信息也是经营活动的重要内容。这些用户信息不仅是支撑微梦公司作为庞大社交媒体平台开展经营活动的基础，也是其向不同第三方应用软件提供平台资源的重要内容。

2017年上海知识产权法院审理的大众点评与百度地图不正当纠纷案，涉及百度地图大量使用大众点评的用户点评数据，法院认为在靠自身用户无法获取足够点评信息的情况下，百度公司通过技术手段，从大众点评网等网站获取点评信息，用于充实自己的百度地图和百度知道。同时，法院肯定了大众点评耗费大量资源获取用户点评数据，并对数据具有整理和聚合效应，这些数据能给大众点评带来竞争优势，具有商业价值，形成了大众点评的商业模式，百度公司爬取这部分数据和其对数据的使用方式，实质替代大众点评网向用户提供信息，对汉涛公司造成损害。百度公司并未对于大众点评网中的点评信息作出贡献，却在百度地图和百度知道中大量使用了这些点评信息，其行为具有明显的“搭便车”、“不劳而获”的特点，故认定百度地图构成不正当竞争。

综上，数据爬虫侵犯著作权民事责任方面，通常当事人首先会试图从数据爬虫行为直接构成侵犯独立作品权著作权角度寻求救济，若判断难以构成独创性作品，则转而寻求汇编作品权利请求权，从知识产权强保护力度出发能有效抑制非法的数据爬取行为。在无法寻求知识产权保护的情况下，提起不正当竞争成为企业，尤其是以大数据利用为业务开展根基的企业寻求救济的其他手段。

启发

数据可以爬，但要爬之有道。由上文可知，不同数据爬取行为可能涉及不同类型的刑事风险、行政责任和民事责任，在爬取数据之前要对相关风险有一定的了解，根据上文，我们提出以下小建议：

● 第一，涉及国家事务、政府机关和公共事业单位运营和管理的数据库尽量别碰，除非是对全体社会公开的数据，如政府公布的企业工商信息、天气数据、人口数据等，也千万不要帮别人或为了赚钱专门写爬虫代码，特别注意不要爬有验证码等反爬措施网站的数据库。

● 第二，对于他人网站数据（如小说、新闻、影音视频等）或者链接，最好不要爬，除非你能证明你仅提供网络服务，且无过错。

● 第三，爬取数据要遵守与被爬取网站的爬虫协议（robots 协议），同时与被爬取网站有合作关系要遵循协议约定，爬取或获取涉及个人信息的要获得用户的明确同意和授权。.

● 第四，爬取数据要适量，不得妨碍网站正常运行，通常自动化访问收集流量不要超过网站日均流量三分之一，被爬网站要求停止自动化访问收集时，应当停止。

作者简介

往期回顾

*声明：本微信订阅号对所有原创、转载、分享的内容、陈述、观点判断均保持中立，推送文章仅供读者参考。本订阅号发布的文章、图片等版权归作者享有，如需转载原创文章，或因部分转载作品、图片的作者来源标记有误或涉及侵权，请通过留言方式联系本公众号运营者。谢谢

作者 | 苏耀云、曾恺

排版 | 李诗欣

审定 | 张　哲

文中引用案例来源 | 中国裁判文书网

文章来源 | “广州律协”微信公众号

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘